在本文中,我们将解决方案介绍给Muse-Humor的多模式情感挑战(MUSE)2022的邮件,库穆尔人子挑战的目标是发现幽默并从德国足球馆的视听录音中计算出AUC新闻发布会。它是针对教练表现出的幽默的注释。对于此子挑战,我们首先使用变压器模块和BilstM模块构建一个判别模型,然后提出一种混合融合策略,以使用每种模式的预测结果来提高模型的性能。我们的实验证明了我们提出的模型和混合融合策略对多模式融合的有效性,并且我们在测试集中提出的模型的AUC为0.8972。
translated by 谷歌翻译
我们描述了JD Explore Academy对WMT 2022共享的一般翻译任务的提交。我们参加了所有高资源曲目和一条中型曲目,包括中文英语,德语英语,捷克语英语,俄语 - 英语和日语英语。我们通过扩大两个主要因素,即语言对和模型大小,即\ textbf {vega-mt}系统来推动以前的工作的极限 - 进行翻译的双向培训。至于语言对,我们将“双向”扩展到“多向”设置,涵盖所有参与语言,以利用跨语言的常识,并将其转移到下游双语任务中。至于型号尺寸,我们将变压器限制到拥有近47亿参数的极大模型,以完全增强我们VEGA-MT的模型容量。此外,我们采用数据增强策略,例如单语数据的循环翻译以及双语和单语数据的双向自我训练,以全面利用双语和单语言数据。为了使我们的Vega-MT适应通用域测试集,设计了概括调整。根据受约束系统的官方自动分数,根据图1所示的sacrebleu,我们在{zh-en(33.5),en-zh(49.7)(49.7),de-en(33.7)上获得了第一名-de(37.8),CS-EN(54.9),En-CS(41.4)和En-Ru(32.7)},在{ru-en(45.1)和Ja-en(25.6)}和第三名上的第二名和第三名在{en-ja(41.5)}上; W.R.T彗星,我们在{zh-en(45.1),en-zh(61.7),de-en(58.0),en-de(63.2),cs-en(74.7),ru-en(ru-en(ru-en)上,我们获得了第一名64.9),en-ru(69.6)和en-ja(65.1)},分别在{en-cs(95.3)和ja-en(40.6)}上的第二名。将发布模型,以通过GitHub和Omniforce平台来促进MT社区。
translated by 谷歌翻译
文本表示的预培训(PT)已成功应用于低资源神经机器翻译(NMT)。但是,它通常无法在资源丰富的NMT上获得显着的收益(有时甚至更糟),与其随机定位(RI)对应物相当。我们迈出了第一步,通过两个探测分析来研究资源丰富的场景中PT和RI之间的互补性,并发现:1)PT并不提高准确性,而是通过实现平坦的损失景观而不是RI的概括。 2)PT不是提高词汇选择的信心,而是通过分配更平滑的词汇概率分布而不是RI的词汇分布来提高词汇选择的信心。基于这些见解,我们建议将它们的互补性与模型融合算法相结合,该算法利用最佳传输来对齐PT和RI之间的神经元。对两个资源丰富的翻译基准的实验,WMT'17英语 - 中国(20m)和WMT'19英语 - 德国人(36m),表明PT和RI可以彼此很好地互补,可以实现实质性的改进,考虑到这两个翻译准确性,考虑到同时的翻译准确性,概括和负多样性。探测工具和代码的发布:https://github.com/zanchangtong/ptvsri。
translated by 谷歌翻译
对于多语言序列到序列预审预周序模型(多语言SEQ2SEQ PLM),例如姆巴特(Mbart),自制的预处理任务接受了多种单语言的培训,例如25种来自CommonCrawl的语言,而下游的跨语言任务通常在双语语言子集上进行,例如英语 - 德国人,存在数据差异,即领域的差异,以及跨语言学习客观差异,即在训练和填充阶段之间的任务差异。为了弥合上述跨语言域和任务差距,我们将使用额外的代码切换恢复任务扩展了香草预后管道。具体而言,第一阶段采用自我监督的代码转换还原任务作为借口任务,从而允许多语言SEQ2SEQ PLM获取一些域内对齐信息。在第二阶段,我们正常在下游数据上微调模型。 NLG评估(12个双语翻译任务,30个零射击任务和2项跨语言摘要任务)和NLU评估(7个跨语性自然语言推理任务)的实验表明,我们的模型超过了强大的基线MBART,具有标准的FINETUNNING,这表明了我们的模型策略,一致。分析表明,我们的方法可以缩小跨语性句子表示的欧几里得距离,并通过微不足道的计算成本改善模型概括。我们在:https://github.com/zanchangtong/csr4mbart上发布代码。
translated by 谷歌翻译
给定一系列集合,其中每个集合与时间戳关联并包含任意数量的元素,时间集的任务预测旨在预测后续集合中的元素。先前对时间集预测的研究主要通过从自己的序列中学习来捕获每个用户的进化偏好。尽管有见地,但我们认为:1)不同用户序列中潜在的协作信号是必不可少的,但尚未被利用; 2)用户还倾向于显示固定的偏好,而现有方法未能考虑。为此,我们提出了一个集成的学习框架,以对时间集预测的用户的进化和固定偏好进行建模,该预测首先通过按时间顺序排列所有用户群的交互来构建通用序列,然后在每个用户集中学习相互作用。特别是,对于每个用户集的交互,我们首先设计一个进化用户偏好建模组件,以跟踪用户的时间不断发展的偏好,并在不同用户之间利用潜在的协作信号。该组件维护一个存储库来存储相关用户和元素的记忆,并根据当前编码的消息和过去的记忆不断更新其记忆。然后,我们设计了一个固定的用户偏好模型模块,以根据历史序列来发现每个用户的个性化特征,该模块从双重角度自适应地汇总了以前相互作用的元素,并在用户和元素的嵌入方式的指导下。最后,我们开发了一种设定批次算法来提高模型效率,该算法可以提前创建时间一致的批次,并平均实现3.5倍的训练速度。现实世界数据集的实验证明了我们方法的有效性和良好的解释性。
translated by 谷歌翻译
本文旨在通过分析图像文本检索模型的可重复性来为信息检索社区提供对检索学习最新进展的一些思考。由于过去十年中多模式数据的增加,图像文本检索已稳步成为信息检索领域的主要研究方向。许多研究人员使用MS-Coco和FlickR30K等基准数据集训练和评估图像文本检索算法。过去的研究主要集中在绩效上,以多种方式提出了多种最先进的方法。根据他们的断言,这些技术提供了改进的模态相互作用,从而更精确的多模式表示。与以前的作品相反,我们着重于方法的可重复性以及对元素的检查,这些元素通过验证的图像和文本在检索图像和文本时通过预验证和未经预处理的模型提高了性能。更具体地说,我们首先研究了相关的可重复性问题,并解释了为什么我们的重点是图像文本检索任务。其次,我们系统地总结了图像文本检索模型的当前范式以及这些方法的既定贡献。第三,我们分析了预审预测和未进行检索模型的复制的各个方面。为了完成这项工作,我们进行了消融实验,并获得了一些影响检索召回的因素,而不是原始论文中所主张的改进。最后,我们提出了未来检索社区应考虑的一些思考和挑战。我们的源代码可在https://github.com/wangfei-2019/image-text-retrieval上公开获得。
translated by 谷歌翻译
时空表示学习对于视频自我监督的表示至关重要。最近的方法主要使用对比学习和借口任务。然而,这些方法通过在潜在空间中的特征相似性判断所学习表示的中间状态的同时通过潜伏空间中的特征相似性来学习表示,这限制了整体性能。在这项工作中,考虑到采样实例的相似性作为中级状态,我们提出了一种新的借口任务 - 时空 - 时间重叠速率(Stor)预测。它源于观察到,人类能够区分空间和时间在视频中的重叠率。此任务鼓励模型区分两个生成的样本的存储来学习表示。此外,我们采用了联合优化,将借口任务与对比学习相结合,以进一步增强时空表示学习。我们还研究了所提出的计划中每个组分的相互影响。广泛的实验表明,我们的拟议Stor任务可以赞成对比学习和借口任务。联合优化方案可以显着提高视频理解中的时空表示。代码可在https://github.com/katou2/cstp上获得。
translated by 谷歌翻译
近年来,研究人员越来越关注几次拍摄学习(FSL)任务,以解决数据稀缺问题。标准FSL框架由两个组件组成:i)预先列车。采用基础数据以生成基于CNN的特征提取模型(FEM)。 ii)Meta-Test。将培训的有关应用于新颖的数据(类别与基本数据不同)以获取特征嵌入物并识别它们。虽然研究人员在FSL中取得了显着突破,但仍然存在根本问题。由于具有基础数据的训练有素的有限元通常不能完美地适应新颖的类,因此新的数据的特征可能导致分布换档问题。为了解决这一挑战,我们假设即使基于不同FEMS的大多数决策被视为\ Texit {弱决策},它们也不适用于所有类别,它们仍然在某些特定类别中仍然变得恰到貌。灵感来自这种假设,我们提出了一种新颖的方法多决定定影模型(MDFM),其基于多个FEMS全面地考虑了模拟的决策,以提高模型的功效和鲁棒性。 MDFM是一种简单,灵活的非参数方法,可直接适用于现有的FEM。此外,我们将所提出的MDFM扩展到两个FSL设置(即,监督和半监督设置)。我们在五个基准数据集中评估所提出的方法,与最先进的3.4%-7.3 \%的显着改善。
translated by 谷歌翻译
视觉问题的视觉关注在视觉问题上应答(VQA)目标在定位有关答案预测的右图像区域,提供强大的技术来促进多模态理解。然而,最近的研究指出,来自视觉关注的突出显示的图像区域通常与给定的问题和答案无关,导致模型混淆正确的视觉推理。为了解决这个问题,现有方法主要是为了对准人类关注的视觉注意力。尽管如此,收集这种人类数据是费力且昂贵的,使其在数据集中调整良好开发的模型。为了解决这个问题,在本文中,我们设计了一种新的视觉关注正规化方法,即attreg,以便在VQA中更好地视觉接地。具体而言,attraT首先识别了由骨干模型出乎意料地忽略(即,分配低注意重量)的问题所必需的图像区域。然后,利用掩模引导的学习方案来规范视觉注意力,以便更多地关注这些忽略的关键区域。所提出的方法是非常灵活的,模型不可知,可以集成到基于大多数基于视觉关注的VQA模型中,并且不需要人类注意监督。已经进行了三个基准数据集,即VQA-CP V2,VQA-CP V1和VQA V2的广泛实验,以评估attreg的有效性。作为副产品,将Attreg纳入强基线LMH时,我们的方法可以实现新的最先进的准确性为60.00%,在VQA-CP V2基准数据集上绝对性能增益为7.01%。 。
translated by 谷歌翻译
Learning the underlying distribution of molecular graphs and generating high-fidelity samples is a fundamental research problem in drug discovery and material science. However, accurately modeling distribution and rapidly generating novel molecular graphs remain crucial and challenging goals. To accomplish these goals, we propose a novel Conditional Diffusion model based on discrete Graph Structures (CDGS) for molecular graph generation. Specifically, we construct a forward graph diffusion process on both graph structures and inherent features through stochastic differential equations (SDE) and derive discrete graph structures as the condition for reverse generative processes. We present a specialized hybrid graph noise prediction model that extracts the global context and the local node-edge dependency from intermediate graph states. We further utilize ordinary differential equation (ODE) solvers for efficient graph sampling, based on the semi-linear structure of the probability flow ODE. Experiments on diverse datasets validate the effectiveness of our framework. Particularly, the proposed method still generates high-quality molecular graphs in a limited number of steps.
translated by 谷歌翻译